package com.ferenc.poi.word;

import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

import java.io.FileInputStream;

/**
 * Java从Word文档中提取简单文本数据。 如果您想从Word文档中提取元数据，请使用Apache Tika。
 * <p>
 * 对于.docx文件，我们使用类org.apache.poi.xwpf.extractor.XPFFWordExtractor从Word文件中提取和返回简单数据。 同样，我们有不同的方法从Word文件中提取标题，脚注，表数据等。
 * <p>
 * 以下代码显示如何从Word文件提取简单文本:
 *
 * @author <a href="mailto:ferenc.zeng@gmail.com">Ferenc Zeng</a>
 * @since 2022-01-15
 */
public class WordExtractor {

    public static void main(String[] args) throws Exception {
        XWPFDocument docx = new XWPFDocument(
                new FileInputStream("create_paragraph.docx"));
        //using XWPFWordExtractor Class
        XWPFWordExtractor we = new XWPFWordExtractor(docx);
        System.out.println(we.getText());
    }
}
